Introducing Llama 3.1: Our most capable models to date
https://scrapbox.io/files/66a08a6827dcfc001c2a8ac2.png
ポイント
これまでオープンソースのLLMは、ChatGPT/Claudeなどのクローズドモデルに能力面で遅れをとっていた。
https://scrapbox.io/files/66a08d014d0eac001c8f6943.png
一般知識、操縦性、数学、ツールの使用、多言語翻訳における最先端の能力を達成した。
人間評価でも、405Bは好成績
https://scrapbox.io/files/66a08da8c1ae68001dcfb31f.png
Open modelだからこそ、ダウンロードできる
自分のニーズに合わせて、新しいデータセットで訓練したり、ファインチューニングさせてカスタマイズできる
感じたこと
概要
すべての人にオープンな知能をもたらすため、最新のモデルではコンテキスト長を128Kに拡張し、8言語をサポートし、Llama 3.1 405Bを含んでいます。これは最初のフロンティアレベル(AI業界の最先端)のオープンソースAIモデルです。
Llama 3.1 405Bは独自のクラスにあり、比類のない柔軟性、制御性、最先端の機能を持ち、最高のクローズドソースモデルに匹敵します。この新しいモデルにより、コミュニティは合成データ生成やモデル蒸留など、新しいワークフローを解き放つことができるようになります。
私たちは、モデルと連携する他のコンポーネント(リファレンスシステムを含む)をより多く提供することで、Llamaをシステムとして構築し続けています。開発者に独自のカスタムエージェントや新しいタイプのエージェント行動を作成するためのツールを提供したいと考えています。これを、Llama Guard 3やPrompt Guardなどの新しいセキュリティおよび安全性ツールで強化し、責任ある構築を支援します。また、Llama Stack APIに関するコメント要求を公開しています。これは、サードパーティのプロジェクトがLlamaモデルを活用しやすくする標準インターフェースです。
エコシステムは準備が整っており、AWS、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud、Snowflakeを含む25以上のパートナーが初日からサービスを提供しています。
米国ではWhatsAppとmeta.aiでLlama 3.1 405Bを試すことができます。難しい数学やコーディングの質問をしてみてください。
今日まで、オープンソースの大規模言語モデルは、能力とパフォーマンスの面で、クローズドな対応モデルに遅れをとっていました。今、私たちはオープンソースが先導する新時代を迎えています。
hiroya_iizuka.icon ちょっと感動だよね...
Meta Llama 3.1 405Bを公開リリースします。これは世界最大かつ最も能力の高いオープンに利用可能な基盤モデルだと考えています。これまでのすべてのLlamaバージョンの総ダウンロード数は3億回を超えており、私たちはまだ始まったばかりです。
Llama 3.1の紹介
Llama 3.1 405Bは、一般知識、操縦性、数学、ツールの使用、多言語翻訳における最先端の能力において、トップAIモデルに匹敵する初めてのオープンに利用可能なモデルです。405Bモデルのリリースにより、前例のない成長と探索の機会とともに、イノベーションを加速させる準備が整いました。最新世代のLlamaは、より小さなモデルの改善と訓練を可能にする合成データ生成や、このスケールでオープンソースで達成されたことのないモデル蒸留など、新しいアプリケーションとモデリングパラダイムを生み出すと信じています。
この最新リリースの一部として、8Bと70Bモデルのアップグレードバージョンを導入しています。これらは多言語対応で、128Kの大幅に長いコンテキスト長、最先端のツール使用、全体的により強力な推論能力を持っています。これにより、最新のモデルは長文テキスト要約、多言語会話エージェント、コーディングアシスタントなどの高度なユースケースをサポートできます。また、ライセンスを変更し、開発者がLlamaモデル(405Bを含む)の出力を使用して他のモデルを改善することを許可しました。オープンソースへのコミットメントに忠実に、本日から、これらのモデルをllama.meta.comとHugging Faceでコミュニティがダウンロードできるようにし、幅広いパートナープラットフォームのエコシステムで即時開発が可能になります。
モデル評価
今回のリリースでは、幅広い言語をカバーする150以上のベンチマークデータセットでパフォーマンスを評価しました。さらに、実際のシナリオでLlama 3.1を競合モデルと比較する広範な人間による評価を行いました。
実験的評価では、私たちのフラッグシップモデルがGPT-4、GPT-4o、Claude 3.5 Sonnetを含む主要な基盤モデルと、様々なタスクにおいて競争力があることが示唆されています。さらに、より小さなモデルは、同様のパラメータ数を持つクローズドおよびオープンモデルと競争力があります。
405B
https://scrapbox.io/files/66a08d014d0eac001c8f6943.png
人間評価でも、405Bは好成績
https://scrapbox.io/files/66a08da8c1ae68001dcfb31f.png
8B & 70B
https://scrapbox.io/files/66a08d64982af1001cbe52a9.png
モデルアーキテクチャ
これまでで最大のモデルとして、15兆以上のトークンでLlama 3.1 405Bを訓練することは大きな挑戦でした。このスケールでの訓練実行を可能にし、合理的な時間内で結果を達成するために、私たちは完全な訓練スタックを大幅に最適化し、モデル訓練を16,000以上のH100 GPUにまで押し上げました。 hiroya_iizuka.icon 計算すると、モデルの訓練に640億円かけてる...
これにより、405Bはこのスケールで訓練された最初のLlamaモデルとなりました。
https://scrapbox.io/files/66a090baf1d1e2001d96ca88.png
これに対処するため、モデル開発プロセスをスケーラブルで簡単に保つことに焦点を当てた設計選択を行いました。
訓練の安定性を最大化するために、エキスパートモデルの混合ではなく、マイナーな適応を加えた標準的なデコーダーのみのトランスフォーマーモデルアーキテクチャを選択しました。
各ラウンドで教師あり微調整と直接選好最適化を使用する反復的な後訓練手順を採用しました。これにより、各ラウンドで最高品質の合成データを作成し、各能力のパフォーマンスを向上させることができました。
Llamaの以前のバージョンと比較して、事前訓練と後訓練に使用するデータの量と質の両方を改善しました。これらの改善には、事前訓練データのより慎重な前処理と選別パイプラインの開発、より厳密な品質保証の開発、後訓練データのフィルタリングアプローチが含まれます。
言語モデルのスケーリング則で予想されるように、新しいフラッグシップモデルは同じ手順で訓練された小さなモデルを上回るパフォーマンスを示しています。また、405Bパラメータモデルを使用して、より小さなモデルの後訓練の質を改善しました。 405Bのスケールのモデルの大規模な本番推論をサポートするために、モデルを16ビット(BF16)から8ビット(FP8)の数値に量子化し、必要な計算要件を効果的に低減し、モデルを単一のサーバーノード内で実行できるようにしました。
指示と対話のファインチューニング
Llama 3.1 405Bでは、安全性の高いレベルを確保しながら、ユーザーの指示に応じてモデルの有用性、品質、詳細な指示遵守能力を向上させるよう努めました。最大の課題は、より多くの能力をサポートし、128Kのコンテキストウィンドウ、そして増加したモデルサイズに対応することでした。
後訓練では、事前訓練されたモデルの上に複数ラウンドのアライメントを行うことで、最終的なチャットモデルを作成します。各ラウンドには、教師あり微調整(SFT)、棄却サンプリング(RS)、直接選好最適化(DPO)が含まれます。合成データ生成を使用して、SFT例の大部分を生成し、すべての能力にわたってより高品質の合成データを生成するために複数回反復します。さらに、この合成データを最高品質にフィルタリングするために、複数のデータ処理技術に投資しています。これにより、すべての能力にわたって微調整データの量をスケールすることができます。
すべての能力にわたって高品質のモデルを生成するために、データを慎重にバランスを取っています。例えば、128Kのコンテキストに拡張する際にも、短いコンテキストのベンチマークでのモデルの品質を維持します。同様に、安全性の緩和策を追加しても、モデルは最大限に有用な回答を提供し続けます。
Llamaシステム
Llamaモデルは常に、外部ツールの呼び出しを含む、いくつかのコンポーネントをオーケストレーションできる全体的なシステムの一部として機能することを意図していました。私たちのビジョンは、基盤モデルを超えて、開発者により広範なシステムへのアクセスを提供し、彼らのビジョンに沿ったカスタムオファリングを設計・作成する柔軟性を与えることです。この考えは、昨年、コアLLM外のコンポーネントの組み込みを初めて紹介したときに始まりました。
モデルレイヤーを超えてAIを責任を持って開発し、他の人々も同様に行えるようにする継続的な取り組みの一環として、いくつかのサンプルアプリケーションを含む完全なリファレンスシステムをリリースし、Llama Guard 3(多言語安全モデル)やPrompt Guard(プロンプト注入フィルター)などの新しいコンポーネントも含めています。これらのサンプルアプリケーションはオープンソースで、コミュニティによって構築されることができます。
このLlamaシステムビジョンのコンポーネントの実装はまだ断片的です。そのため、業界、スタートアップ、より広範なコミュニティと協力して、これらのコンポーネントのインターフェースをより良く定義するための作業を開始しました。これをサポートするために、「Llama Stack」と呼んでいるものに関するコメント要求をGitHubでリリースしています。Llama Stackは、標準化された意見のあるインターフェースのセットで、正規のツールチェーンコンポーネント(微調整、合成データ生成)とエージェントアプリケーションを構築する方法を定義します。これらがエコシステム全体で採用され、開発者とプラットフォームプロバイダーの相互運用性を容易にすることを望んでいます。
提案に対するフィードバックと改善方法を歓迎します。Llamaを中心としたエコシステムを成長させ、開発者とプラットフォームプロバイダーの障壁を下げることに興奮しています。
オープン性がイノベーションを推進する
クローズドモデルとは異なり、Llamaモデルの重みはダウンロード可能です。開発者は自分のニーズとアプリケーションに合わせてモデルを完全にカスタマイズし、新しいデータセットで訓練し、追加の微調整を行うことができます。これにより、より広範な開発者コミュニティと世界が生成AIの力をより完全に実現できるようになります。開発者は、アプリケーションに合わせて完全にカスタマイズし、オンプレミス、クラウド、あるいはラップトップ上でローカルに実行することができます。すべてMetaとデータを共有することなく行えます。
hiroya_iizuka.icon 本当に偉大なことだよね...
多くの人がクローズドモデルの方がコスト効率が良いと主張するかもしれませんが、Artificial Analysisのテストによると、Llamaモデルは業界で最も低いトークンあたりのコストを提供しています。
https://scrapbox.io/files/66a1f4bf7fc561001d655042.png
そしてマーク・ザッカーバーグが指摘したように、オープンソースは世界中のより多くの人々がAIの利益と機会にアクセスできるようにし、力が少数の手に集中せず、技術が社会全体にわたってより均等かつ安全に展開されることを保証します。だからこそ、私たちはオープンアクセスAIが業界標準となるための道を歩み続けています。
過去のLlamaモデルでコミュニティが素晴らしいものを構築するのを見てきました。例えば、LlamaとWhatsAppとMessengerに展開されたAI学習バディ、臨床意思決定をガイドするために設計された医療分野に特化したLLM、そしてブラジルのヘルスケア非営利スタートアップで、データセキュアな方法で患者の入院情報を整理しコミュニケーションを容易にするものなどがあります。オープンソースの力を借りて、最新のモデルで彼らが何を構築するのか楽しみです。
Llama 3.1 405Bを使って構築する
一般の開発者にとって、405Bのスケールのモデルを使用することは困難です。これは非常に強力なモデルですが、作業には相当な計算リソースと専門知識が必要であることを認識しています。コミュニティと話し合い、生成AIの開発にはモデルのプロンプティング以外にもたくさんのことがあることがわかりました。405Bを最大限に活用できるようにしたいと考えています。以下のことを含みます:
リアルタイムおよびバッチ推論
教師あり微調整
特定のアプリケーションに対するモデルの評価
継続的な事前訓練
検索拡張生成(RAG)
関数呼び出し
合成データ生成
ここでLlamaエコシステムが役立ちます。初日から、開発者は405Bモデルのすべての高度な機能を活用し、すぐに構築を開始できます。開発者はまた、使いやすい合成データ生成のような高度なワークフローを探索したり、モデル蒸留のためのターンキー指示に従ったり、AWS、NVIDIA、Databricksを含むパートナーからのソリューションでシームレスなRAGを可能にしたりすることができます。さらに、Groqはクラウド展開のために低遅延推論を最適化し、Dellはオンプレミスシステムで同様の最適化を達成しています。 https://scrapbox.io/files/66a1f61b046d7b001cf98980.png
vLLM、TensorRT、PyTorchなどの主要なコミュニティプロジェクトと協力して、初日からサポートを組み込み、コミュニティが本番展開の準備ができていることを確認しました。
405Bのリリースが、このスケールのモデルの推論と微調整をより容易にするための幅広いコミュニティ全体のイノベーションを刺激し、モデル蒸留の次の波の研究を可能にすることを期待しています。
今日からLlama 3.1モデルコレクションを試す
コミュニティがこの作業で何を行うのか楽しみです。多言語性と増加したコンテキスト長を使用して、役立つ新しい体験を構築する可能性がたくさんあります。Llama Stackと新しい安全性ツールにより、オープンソースコミュニティと責任を持って一緒に構築し続けることを楽しみにしています。モデルをリリースする前に、赤チーム演習を通じた展開前リスク発見、安全性微調整など、いくつかの方法を通じて潜在的なリスクを特定、評価、軽減するよう努めています。例えば、外部および内部の専門家と広範な赤チーム演習を行い、モデルにストレステストを行い、予期せぬ使用方法を見つけます。(この投稿で、Llama 3.1モデルコレクションを責任を持ってスケーリングする方法についてもっと読むことができます。)
これは私たちの最大のモデルですが、将来的にはまだ多くの新しい領域を探索できると信じています。これには、よりデバイスフレンドリーなサイズ、追加のモダリティ、エージェントプラットフォーム層へのさらなる投資が含まれます。いつものように、コミュニティがこれらのモデルで構築する素晴らしい製品と体験を見るのを楽しみにしています。